查看原文
其他

讲座文稿:何为新风格:关于生成对抗网络与扩散模型的迷思 | 加密艺术与元宇宙NO.15

服务器艺术 服务器艺术 2023-08-24


《加密艺术与元宇宙》系列讲座第十五期,我们邀请到艺术家方政作为主讲嘉宾,以“何为新风格:关于生成对抗网络与扩散模型的迷思 ”为题做主题分享,并邀请了杭州心识宇宙有限公司研究院院长,集智俱乐部核心作者,科学作家十三维,复旦大学哲学博士后,中国社会科学院副教授王志强作为讨论嘉宾,独立纪录片导演、艺术家、当代艺术摄影批评人袁园担任主持与三位嘉宾展开对话与讨论。

本文为讲座内容文稿,扫描下图二维码观看视频回放。


何为新风格:
关于生成对抗网络与扩散模型的迷思


  1.  生成对抗网络和扩散模型;

  2.  概念延展;

  3.  技术伦理;

  4. 总结。


@方  政

大家好,很高兴今天能有机会来参与这次的分享会,我不想将它作为讲座。

首先简单自我介绍:

我本科毕业于中央美院版画系,研究生就读于加州大学洛杉矶分校的媒体艺术系;现在我一方面受雇于英国的一家独立游戏公司,正在开发一款独立游戏;同时也在加州大学洛杉矶分校教授三维建模的课程。

今天我的讲座主题是“何为新风格:关于生成对抗网络与扩散模型的迷思”

今天在座的嘉宾以及收听的朋友也许来自各行各业,可能是程序员、数学家,或是其他,但我想尽可能从艺术的角度去谈这两种算法,或者是这一类的机器算法给我们带来的艺术,尤其是艺术创作上的一些启发。

讲座的起因:

ArtStation是一个在原画、插画领域非常知名的网站,很多业内从事电影美术、游戏设计、人物设计的大佬经常在这个网站post(发布)他们的作品。最近出了一个事件:ArtStation上有很多人把自己用AI创作的作品直接发布到网上,另外,很多创作者发现自己的作品被非法盗用了,于是便开启了声势非常浩大的反对AI的活动。
我认为这个活动有很多值得思考的地方,归根到一点——也就是我们今天的标题——他们认为AI的出现并没有带来什么新的东西,只是在把以往的东西通过组合、叠加、揉和制造出一种“混合体”。这是否是一种新,或者为什么不能称之为新,是一个非常值得思考的问题。

放几张图片:

图1:用一款专攻二次元风格的AI(NovelAi)生成的一组图片。左边是我花几秒钟拿鼠标随便画的示意图,右边是根据示意图自动生成的还不错的效果。

图2:这张难度大一点的图片,效果更好。也可以直接通过文字生成。对我来说,右边的生成效果已经超过了80%的绘画爱好者。

如此强大的算法,目前使用它的人大多是玩家心态,对于它背后底层逻辑的探讨是不够的。

图3:这张AI生成的图片,来源于最下面这一段提示词:“生成一张来自1982年的叫《机器人画家》的科幻电影的DVD截图”。可以看到它的效果非常非常好。

我认为这张生成的图片很具有代表性,很符合我本人对于AI生成艺术的看法:机器人端给你生成的作品,但把选择权交给你。从绘画的角度来说——比如数字绘画,要控制每一个像素,如果是油画,则要控制每一次油墨的比例。AI绘图对于艺术家是机器人把菜端好了让你选择,你的工作更像是艺术总监。

以这张图片为例,机器人端给你看的是机器人自己。虽然它在试图接近人,但是它表达出来的跟人还是有一定的距离。这个距离在我这里并不是那么具有消极意味,反而很有意思,甚至可以说是一种后人类的角度,这也许能够帮助我们去探索至少是艺术创作领域未来的空间。

生成对抗网络和扩散模型
因为不太清楚来收听的朋友们的背景,我简单介绍一下机器学习算法,尤其是这两种算法:生成对抗网络和扩散模型的基本原理。我讲的时候尽可能不以数学或者是编程的角度,而是以更为抽象的偏艺术创作的角度来说。

基本概念

归根结底,机器学习用很抽象的说法就是:想办法让机器具备找到一个函数的能力什么意思呢?我想起了我高中时候的同桌给我讲了一个让我笑了好几个星期的笑话。
第一个问题:绿豆和红豆混锅里一起炒,为什么出锅时一边是红豆,一边是绿豆呢?答案很简单,因为只有一颗绿豆和一颗红豆。
第二个问题:如果是1000颗绿豆和1000颗红豆混在锅里一起炒,为什么出锅时一边是红豆一边是绿豆呢?这个问题让我想了一两个星期,每天猜答案都没有猜到。最后他跟我说了两个字:“巧了。”
我认为机器学习很多时候就是要寻求如何能够找到这样一个函数,找到一种炒锅掂勺的方式来达到“巧了”的效果。

生成对抗网络
Generative Adversarial Networks, GAN

其实机器学习算法的理念很早就被提出了,在我们生活中也运用了很久。最开始的手写识别、汽车车牌号识别、人脸识别、行人识别、天网追查罪犯——但是它的工作重心——至少五年以前——都在识别和判断上,不太能够生成。它能够学得很好,能够理解哪个是水平,哪个是斑马线,哪个是自行车,但并不能生成一张高水平的、真实的自行车的图片。

直到四、五年前——我记不太清了——生成对抗网络(简称GAN)开始进入公众视野,让大家感觉简直不可思议的是这样一个研究。

这个网站thispersondoesnotexist.com,每一次刷新都会生成一张人脸。我相信无论怎么看都是一张真实的脸,而且真实得有点儿吓人,每个地方都非常和谐,不是拼贴,而是所有的细节都跟人的种族、性别、年龄高度吻合,而且照片的质感也非常好。这些图片就是用“GAN”生成的。这里主要用的是StyleGan,效果非常非常真实。

开始惊讶我的是结果,后来惊讶我的是算法。我毕竟是学艺术的,感觉到它的底层逻辑跟人的学习有很强的相似之处。

基本原理:

GAN不同于传统的机器学习或者其它的算法有两部分:顾名思义,一部分是生成器(Generator),一部分是判别器(Discriminator)
我这里用OpenAI的DALL∙E2生成了两张比较好玩的跟两部分很像的图片。

生成器在我而言是一位蒙住眼睛画画的“瞎子画家”,它不管这么多,一通乱画,怎么好玩、怎么乱来怎么画。

判别器是一位非常严肃的私家侦探,它要去鉴别生成的东西和原本的数据集相比是不是真实的。

首先我们会喂给机器学习模型一大堆数据,比如个人玩儿的话,至少要将近1000张,一般来说是多多益善。有这些图片之后,生成器开始从噪音——或者可以理解为是随机的像素点——开始。一开始会生成完全匪夷所思,根本看不出是什么的杂乱无章的东西,此时的生成器相当于人类年龄的几个月。判别器一开始也不会很严格,可能很容易满足,直到它判别不出哪个是真,哪个是假,便会自己开始迭代、升级,变得更严格、更高效。

这个时候生成器生成的东西都是假的了,判别器也要开始要努力了。如此往复,直到经过几千次或者是更多的迭代,最后会生成出完全以假乱真的图片,判别器完全无法分辨这张图片到底是生成的还是来自于数据集。

当我知道这个算法之后开始想如何用这种算法来进行艺术创作,其实可以暗喻一种很黑暗的规训,社会对人的一种规训。

生成和对抗的过程有点儿像是老师和学生。老师开始会鼓励你蛮有天赋,画得挺好的,但画了一段时间,老师就开始对你严格要求了:“这个地方是不是可以花点儿功夫”,“是不是可以多去看点儿大师的作品”等等,越来越严格,你也会画得越来越上道。

同时,这种算法或者是判别,跟现在网络主播也有类似的地方。
这组照片是在斗鱼上颜值区扒取的前五页女主播的头像。无论是长相、发型、妆容,还是她们对于直播间的布置,她们都有一个趋向。这种趋同关系是一种蛮无聊的直男审美造成的,就像生成器和判别器一样。

女主播们都想用美颜相机把自己变得更好看,往高度“女性化”,符合男性观众的审美走。但一旦做得太过,让这些男性观众明显地发现你开美颜,而且太夸张了,他们就不买账了。这一点很像判别器,一开始引导生成器向一个方向走,一旦认为有点儿过了,就说不行,可以收收了。这就是我当时扒出来的结果。
后来我把这些图片喂给StyleGan,完全由机器学习生成了这一批主播,但如果我没有提前说,很难看得出来这组图片到底是机器学习生成还是真实的主播。

大家可以看到比较有意思的几个地方:

第一点,排序的时候我使用了比较顺滑的方式,而不是随机生成,所以大家可以看到每一行都是从一位主播慢慢变成另外一位主播。

第二点,生成的时候有一些我自己看直播时没有注意到的点被还原得很好。比如耳机线,我本来没有觉得这是一个很重要的feature(特征),但StyleGan认为是,于是在思考过后我认为的确,我搜集了五页主播,到第3页、第4页的时候基本上一个直播间只有十几个人观看,很多主播是将直播作为业余爱好,没有专门的麦克风,都是用的有线耳机。这真是意外之喜。
这个视频是当时用这些图片生成的,是比较典型的用GAN做艺术生成作品的结果。它能够生成很拟真又保留一些特点的图片。

扩散模型 Diffusion  Model

扩散模型很早就被提出了,但没有得到很好的发展,直到这两年开始全方位取代GAN

讲扩散模型绕不开“熵”,首先讲一下什么是熵。不知道大家有没有看过一部电影《无姓之人》(Mr. Nobody),我非常喜欢里面讲科学家的一段。

这部电影里面提到了“熵”的概念,很有意思的是,熵一方面经常会在热力动力学、流体力学的学科中被提及;另一方面也会在信息学中被提及。

我认为我们现在生活的方方面面都离不开熵,比如说JEPG、文字传输、视频分享,视频的编码本身都是基于香农提出的信息论的一些基本原理。

其实信息论里面的“熵”有一种很方便理解的角度。昆汀的《无耻混蛋》里面有一个情节是玩一种叫“Who am  I?”的游戏,规则是别人在你的头上贴一张纸,纸上写了一个人物的名字,你要去通过“是”和“否”的问题来猜这个名字是什么。其中一个角色的人物是“金刚”,这个时候他猜:“这个角色是美国人吗?”“他去过纽约吗?”其他人答:“哦,他去过纽约。”“他是电影角色吗?”“是”。然后就可以猜到是金刚了。

其实信息是可以通过这种方式去量化的,也就是说信息是有用的或者是信息量比较高的,这在学术上叫熵。扩散模型就是这种概念的结合。

想象一砣颜料进入到水里,慢慢地随着时间呈漂亮的丝带状,最后和整杯水融为一体,变成一瓶均匀的蓝色的水。那么有没有方法可以立着把它还原成一开始的状态呢?想想挺不可能的,但扩散模型做的事情有一些类似,区别在于不是真的还原成一开始的样子,而是试图通过一些混沌的最终的均质分布将一滩混沌的均匀的水还原成一开始充满信息量、充满个性的饮料。

Diffusion Model具体的方法:Forward SDE(data—noise)

大家不用太操心图中的数字,用比较简单的方法来概括:左一是一开始输入的图片——一只狗,试着给这张图片加一些随机颜色的噪音(类似于以前老式电视信号不好时经常有的吱吱的噪波,雪花屏),然后试图用机器学习的方法找到一个可以把这些噪波消除的函数。

一步步往前推,最终能否变回一条狗呢?从比较抽象的角度解释扩散模型所做的事情就是这种感觉。

拿画画举例,对很多初学者来说最难以处理的是起稿的部分,于是会依赖老师改稿,老师画80%,你只需要完成最后的20%。如此训练,逐渐从独立完成20%到独立完成30%,直到能够在一张白纸上生产出自己的作品为止。这个例子中的白纸就相当于前面提到的混沌。

这张是我前两天生成的图片,提示词大概是:“1982年的科幻电影中,中国新年放烟花的镜头。”词不长,但我认为效果是非常惊人的。我自己也画画,也会在其他平台欣赏其他艺术家的作品,身边也有朋友在做电影的美术和概念设计,这张图从整个构图、色调的安排、气氛的把握等各个方面对我而言都是一件非常好的作品。

简单说,这就是Diffusion Model能够达到的事情,并且只是一个开端,可见它是潜力无穷的。后面我们还会讲到Diffusion  Model跟GAN的区别。

概念延展

想必大家对这两种算法已经有了一个基本认知,接下来我们进入下一个阶段的主题,通过机器学习的算法进行概念延展。因为我认为不光从数学上、计算机科学上这是一种很厉害、很有潜力的算法,而且从哲学、创作方法上对于所有人,尤其是艺术创作者来说都是非常具有开阔思维性的。

风格矩阵

风格矩阵是批评家、艺术史学家亚瑟∙丹托在1964年写的《艺术世界》(The Artworld)里面提出的观点。
简单来说,可以把风格矩阵想象成一个只有两个国家的世界,一个国家只画再现绘画(比如安格尔这样的新古典主义);另一个国家只画表现主义绘画。假如这两个国家相遇了,他们的艺术会融合出几种新的风格?大家会下意识地想有再现、表现、融合三种。其实不是,是四种。

1) 既再现又表现,比如马蒂斯这类既有具体物象又有很强表现性的野兽派;
2)只再现不表现,比如新古典主义;
3)不再现只表现,比如抽象表现主义;
4)既不再现也不表现的风格,比如硬边抽象,这个经常被人忽略。

从左边的表格,还可以看到更多,比如现实主义、表现主义、概念艺术、表演、交互等。它们之间互相加减就能构成新的风格。由于现在的风格太多了,很难说自己的创作到底是被什么风格影响的。

接触GAN之后,有很多方向就是在讨论风格之间的混合、内容和形式匹配的问题。
2017年的一篇论文, CycleGAN做的一个新的尝试是他们试图保持图片的构图和内容不变,只对风格或者是物体的表现进行转变。

图中的例子:

1)将莫奈的画变成了一张照片,或者是把一张照片处理成莫奈的风格;
2)将斑马变成马或者是将马变成斑马;
3)将美丽的夏天变成冬天,将冬天变成夏天;
4)将同一张照片变成莫奈、梵高、浮世绘的风格。

总的来说,它们先是削弱了风格和内容的关联,然后试图寻找转变或是融合风格方式。
另外一篇关于Bic GAN的论文,研究的是把海量的、不同类别的模型——如火箭、喷泉、自行车、猫、狗、蛙等——单独训练之后再进行模型之间的相互交融。这里是我在Google Colab上找到的它们的实验:先生成一张蘑菇的照片,再生成一张野猪的照片,然后让蘑菇和野猪进行融合,得到了第三张。

下一个例子是现在比较火的,用DALL∙E2生成的。我输入的提示词是“一张梵高和波洛克风格混合的油画”,我觉得它很圆满地完成了任务,抓住了梵高的感觉和波洛克绘画的要领。如果我把任务布置给一位绘画初学者、爱好者或是学过一段时间绘画的人,不一定能够完成得有这个好。

值得注意的是我前面提到的风格矩阵,有一个很重要的观点是看风格的时候,以前人们会花很多时间和精力关心“+”(加号)的部分——我这件作品是否是再现主义?是否是写实的?是否是关心劳动人民的?画面是否是有张力的?但并没有花功夫关心“-”(减号)的部分,也就是不想要什么。

现在Diffusion Model,Hugging face里提供的Stable  Diffusion2.1版本可以输入两个提示词,一个正向的和一个反向的。比如正向提示词是“阳光灿烂的下午”,反向提示词是“美丽的画面”。

单纯的“阳光灿烂的下午”很有可能生成一张非常好看、非常温馨的午后街景等,但如果加入反向提示词(也就是不想要的东西)——美丽的画面,便会生成一个阳光明媚但并不美好的画面,比如战乱。

正向、反向都有,真的跟丹托提出的“加号和减号”有异曲同工之妙。

降维

看过《三体》的朋友可能知道“降维打击”。一个模型训练好之后会有很多维度,OpenAI可能会有上百亿个维度,完全超出人的感知能力的。所以我们有时候会对数据进行可视化,寻找降维的工具将它处理到人类能够理解的维度。
比如t-SNE做的是英文小说里单词之间的相关性。大家可以看到词分成聚落,之间隐含着一些联系性。

看一些细节:下面张截图来自上面左图最右边的部分,可以看到都是男性的名字,男性的名字会特别紧密,女性的名字会松散一点。
“儿子”“女儿”“母亲”“父亲”比较紧密,“夫妻”“婚姻”“孩子”“怀孕”“被爱”则稍微远一点。虽然词语有很多衡量标准,但AI会尽可能将其降维。

我做了一个小实验:用的是同样的算法,但降维方法不一样,是用UMAP做的。我搜集了第9届到第13届全国美展的一共2684张获奖作品,全部扔进去进行了降维归类。
结果非常好,很明显地发现它从主题和绘画方式上被分为了不同的团。这一团明显是军旅生活——战士背着另一个战士、战士的图像、训练的场景;相邻的是红军;再相邻是少数民族生活——牧牛、放马,在自己的蒙古包前边坐着聊天、喝茶。

甚至有艺术家专门从降维模型的美感层面去做作品。比如Refik Anadol之前在MOMA做了一场个展——Unsupervised。
我之前在洛杉矶时的室友刚好是他studio(工作室)的员工,所以我对他算是比较了解。由于在这个领域出名很早,他能够经常跟很多拥有大数据的公司和团体合作,可以拿到各种海量数据,比如电影或是汽车的。他会单从被降维并被整理过的数据美感出发,甚至他的作品已经超越了内容本身,不再需要了解数据内容,只是从降维本身来讨论。

这里出现了一个很有意思的事情:它的维度跟人很有相关性。接下来的讨论,很多老师会发表比我高明得多的见解,因为我不是学哲学或者是语言学的。就我粗略的了解,结构主义的一些讲法会提到词语不是固定,而是流动性的。只有纵观它所处的语境,对比它跟其他语言的关系才能明确词语的意思。
这跟机器学习降维的方式非常像。回到前面我给大家看过的Cycle GAN的例子:左图是一匹马的照片,右图是将左图转换成斑马的图片。

大家注意:这张图片并不仅仅是把马变成了斑马,草的颜色也从绿油油的草变成了灰黄色。原因很有意思——是另外一位做这方面作品的艺术家告诉我的——斑马生活在非洲大草原,即使是逢水期,草也是比较枯黄的,这导致了大部分的斑马照片里的草都是枯黄的。于是AI便认为左边欧洲绿油油的草跟斑马不太匹配,把它转变成了非洲的草。

类似的,这是我让DALL∙E2生成的四张蚂蚁的图片,提示词非常简单:“蚂蚁照片”,每一张都是类似的,景深非常浅。不光是DALL∙E2,像前面BigGAN生成蘑菇的例子也是,景深很浅。

用这两个例子可以推测出,原因是被摄物的体积。由于是照片,必须从拍摄的角度来看,这时体积就一定会和前景深相关。如果用别的“小”东西去生成,比如硬币、棒球也会是一样的结果。

过拟合

过拟合理解起来也蛮简单的,在这里我用比较抽象的方式讲:

假设我们有两组数据集,红色和蓝色。机器学习的简单目的是想得到一套函数,一套能够区分红色和蓝色的数据的函数。不只是样本,还要具备区分新数据的能力。
紫色的线是我们期望的函数,漂亮、规矩、具有理解性,但有的时候我们会得到绿色线这样的,有点儿不讲道理,弯弯曲曲的。大家看到绿色曲线左下部分包含每一个红色的点,右上部分隔开每一个蓝色的点,我们可以根据这个分布得出一个函数,这种函数在学习的样本里面出色地完成任务,但一旦有新的数据就不行了。这跟人学习很像,如果我们反反复复只做十套同样的卷子,可以得满分,但做第十一套的时候,得出来的分数就完全不一样了。

齐白石说过“学我者生,像我者死。”我认为这是非常好的对于过拟合的解读。你要去学而不是去追数据集,当然不排除有的艺术家会故意利用过拟合进行创作。图像上的过拟合,最简单的例子是想象一下你数据集的一千张照片都是一模一样的,比如一千张苹果,那么就只能生成一张照片,不能生成别的东西。
艺术家Casey用DC-GAN做过一个作品——可能有电影爱好者发现做的是侯孝贤《刺客聂隐娘》,她认为过拟合有一种美学上有趣的地方,能学习出既粗糙又能把原本画面打散的效果。

GAN 和 Diffusion的不同之处:

GAN有两个部分,生成器和辨别器,这相当于需要生成两个模型,像培养一个人,不光是要找到一个好苗子,还得找到一个好老师,这样难度就瞬间大起来了。

而Diffusion更像自学成才,只是按照指令生成。从编程的角度上讲,Diffusion不会把图片压缩、变小,我前面生成的烟花图片和机器人给画家选画的图片细节都非常丰富。

技术伦理

最后讲一下技术伦理的问题,也是我做这个讲座的起因。机器学习的生成是否在伦理上有问题?如果没问题的话,以往艺术上的抄袭、挪用、借鉴、致敬(在我这里是近义词)这些东西是否站得住脚。
这个话题被推上风口浪尖的一次是由于这两张图:左是画师画的原图,右是机器学习生成的。明显看到右用了很多左图的光线、构图、人物动作、配色,但又不太一样,没有花,没有细节,很明显没有左图好。

于是我思考到底如何定义这件事。如果是从文化产权的角度,估计很多朋友会下抄袭的结论,如果是学计算机的朋友可能会认为这张过拟合了。比如有可能一共学习了100张图,其中20张都是这位画家的,再加上这一张调参的时候权重比较大,就造成了这个结果。

从观念上讲,抄袭本身究竟能否被算作一种过拟合?这个问题我没有得出结论,于是我就问chat GPT。

:抄袭可以看作是一种过拟合吗?
chat GPT:抄袭不能被看作过拟合,过拟合通常指的是机器学习模型在训练数据上表现良好,但在新数据上表现不佳的情况,抄袭是指使用其他的作品不给予适当的认可。
:但在训练数据过少的情况下,生成结果会很容易和数据集原始信息产生过拟合,人类的学习有类似的地方吗?如果学习量过少,参考的风格、内容过于单一,就会产生出类似机器学习中过拟合的情况,你又怎么看呢?
chat GPT:你说得对,在训练数据过少的情况下模型很容易陷入过拟合,人类的学习有类似的地方,如果学习量过少,参考的风格、内容过于单一,就会产生单一化思考或者模仿别人的情况,也就是所谓的“抄袭”。但是抄袭和过拟合也是有区别的,抄袭指的是不遵循道德和法律的行为,而过拟合则是模型在新数据上的表现不佳。
:但是现在很多模型,比如Diffusion,被爆出了很多生成的结果直接来源于单一的某张艺术家作品。这种源自机器的抄袭和过拟合算是密切相关了吧?
chat GPT:你说得对,当机器学习模型训练数据来源于单一的艺术家或者单一领域的作品,生成结果会偏向于这个领域或者这个艺术家的风格,有可能会出现模仿或抄袭的情况,这种情况下,模型的过拟合和抄袭是密切相关的。而这个问题可以通过增加训练数据的多样性和来源来解决,避免模型陷入过拟合和抄袭的局面。
这个跟人的学习真的很像。我高中时参加过一次马其顿青少年绘画交流活动,其中有二十位来自罗马尼亚的高中生,他们不会画任何风景、写生等任何其他类型的绘画,只会画圣母像。户外交流的时候,我们在写生,他们还是在画圣母像。

在这个语境下,可能他们也会存在互相模仿学习,但画圣母像没有抄袭之说,大部分的民间艺术也不存在抄袭一说。其实我认为抄袭本身是一个很现代的,基于艺术商品化的,尤其是强调波希米亚式、梵高式的艺术家的生态而产生的概念。
Diffusion被曝光过试图生成米老鼠,这个形象是绝对没有版权的。大家都知道迪士尼的法务部是世界上最强的,不允许任何人非法使用他们的版权。很明显Diffusion的很多模型没有遵守这一点,擅自扒取了整个互联网上所有能扒到的图片。

图像领域对版权的保护没有音乐领域那么严格,所以经常会出现这样的问题。

由于OpenAI的研究都需要级大规模的数据,最近出现了这样一种情况,有一篇OpenAI的论文,是关于鲁棒性语音转文本训练的。一般的语音识别数据集大约在1000个小时左右,但OpenAI的这个项目使用了68万个小时的音频数据,并且在论文中直接回避了数据集来源的问题,结果不言而喻了,这种回避行为可能会成为未来大公司做训练的趋势。
回到艺术,抄袭、致敬、过拟合或是风格迁移其实贯穿了整个艺术史。比如马奈的《奥林匹亚》,如果从过拟合或者CycleGAN、风格迁移的角度来看,其实是非常有趣的。

从纯艺角度讲,人们对抄袭、挪用、借鉴这些东西的容忍度比较高。我是纯艺背景,所以不一定要用纯艺的角度去看待ArtStation上的作品,它更偏向视觉图像制作。
艺术家理查德·普林茨(Richard Prince)把自己Instagram的截图放大打印,在艺博会上售卖,一张9万美金。如果用机器学习算法,可以做很多类似的东西。

我进行了几组实验,DALL∙E有一个可以扩充画面的功能,于是就选择了一位风格上非常不具有连续性的艺术家——王兴伟老师。
原图(左)为《我的美好生活》,加了条狗,变为《他的美好生活》。

《无题(浇花)》加了砖块等杂物,变为《无题(浇花、拍花)》。
《生命的邂逅》画的是作者与妻子,加了三位骑电瓶的人,变为《生活的邂逅》。

大家可以看到,不需要王兴伟老师生平所有的绘画,截然不同的三种风格,单张图片也可以完成得很好

还有一点值得注意的是,几乎现行的所有机器学习,由于数据量太大,跑一个这样的模型可能要花费上百万美金,所以基本没有个人,都是大型机构去使用的。因此会有一些规范,比如为了防止色情、暴力等禁止内容出现,相关的提示词会直接被屏蔽。但有人发现了一个漏洞:机器学习出现了自己的语言。

这张图的提示词是“两只鲸鱼讨论食物,有对话框,”左边是生成的图片:一条鲸鱼对另外一条鲸鱼说:“Wa ch zod ahaakea rea.wodfuelld”人不能理解,看上去是乱码,但某些用户突发奇想把这行字打给了DALL∙E2,让它生成“Wa  ch  zod  ahaakes rea”。居然真的生成了食物,而且是海产品,鲸鱼的食物。这段话机器真的能够理解,也就是说只要找到机器学习自己的语言,便可以绕开监管,生成暴力、色情图片。这是监管不利的情况。

当然也有监管过度的情况,我曾经试过扒取大量色情网站的自拍图片,放到styleGAN里做生成,得到了这组视觉风格上很有意思,但跟色情没有关系的图片。这两张格外有趣,于是我做了一本册子,把他们作为封面和封底。

有意思的点是,我试图将它上传到Instagram,Instagram直接给了我一个很严重的警告:请不要再试图上传不符合社区规范的图片,如果你再传我们会直接封禁你的帐号。

这两张图片和色情完全没有关系——其实从数学、哲学上没有是不是的概念——但由于GAN的属性,机器判定这两张图片和色情图片是等价的。


总   结

在进入讨论环节之前,简单总结一下:不光是机器学习,如果做创作时将两个东西混在一起,是否能够将其称之为一种新的东西。黄色颜料和蓝色颜料混在一起变成绿色颜料,绿色能不能被称为是一个新的颜色?

今天,我尽可能以快速、简单的方式讲了机器学习的算法和艺术理论,在这种情况下我的讲座能否提供新的信息呢?这也是很值得大家思考和玩味的点。

最后用四张我生成的照片作为结尾,提示词是:“今年春晚会出现的小品”



嘉宾讨论
@袁  园 
谢谢方政的精彩分享。接下来有特别多针对你分享的讨论。我做了一些准备,首先做一个简短的回应,接下来再抛出问题。
最近在拉斯维加斯举办的2023国际消费电子展,几乎被人工智能、元宇宙、Web3主导了。某种程度上,2022年是AI生成元年,甚至可以用“大爆发”一词来形容。AI不再局限于实验室,而变成日常的应用和分享,社交媒体上也可以看到大量基于AI生成的讨论。

刚刚方政讲了Artstation上的艺术家们特别强烈地反抗,要抵制AI生成的艺术。于是我便思考艺术家抵制的到底是什么呢?

正好前两天讲课的时候讲到奥登(Wystan Hugh Auden)的一本书《染匠之手》,里面回应了这个问题,有两个问题是艺术家特别敏感的:一是灵感;二是技能

灵感耗费精力;技能需要我花费数十年在学院训练获得。创作是手工活,一件作品被倾注了大量的精力和时间,而AI分秒就可以生成。

奥登说:

“许多世纪以来,人们为精神的厨房引进了一些节省劳力的“设备”——酒精、咖啡、烟草、镇定药,大麻等等——可是他们都很不完善,不断失灵,而且很容易使下厨的人受伤。二十世纪的文学创作与公元前二十世纪并没有多少差别:几乎一切依然需要手工完成。”

“许多人喜欢观赏自己手写的字,就好象喜欢自己屁的气味。”

奥登非常毒舌,打击了所谓的灵感,也打击了手工,他说,我写的东西要通过打字机来打出来,因为这个时候我能发现自己的缺陷,摆脱手工的迷思。

“大多数艺术家是真诚的,大多数艺术是拙劣的,虽然某些不真诚的作品也可以是很不错的。”

我们把奥登这几句话套到AI里,会发现,花费了很长时间,无数精力的艺术家手工画的作品,特别真诚,特别努力,也投入了很多精力,但成果就是很拙劣的,很糟糕的,没有任何艺术价值的。

而有些AI生成的作品就是非常好的,不管是美学上还是纯视觉愉悦上。你的真诚,你的技能,你的手活并不代表着你的艺术价值。所以AI生成某种程度上高度且精准地打击了艺术家脆弱的内心——我的灵感、我的痕迹、我特别真诚的态度……

由此发现AI生成,尤其是方政讲到的扩散模型和GAN完全不一样。为什么GAN不挑战艺术家,扩散模型特别挑战艺术家?
这是佳士得2018年拍的第一幅AI生成作品,拍卖成交价43万美金,是一个小组用生成对抗网络(GAN)做的。能看出它像一幅画像,但是哪儿哪儿都不对,只是像而已。
德国艺术家Mario Klingemann同样在2018年用生成对抗网络(GAN)创作了作品《路人的回忆》(MEMORIES OF PASSERSBY I),艺术家恰恰利用了GAN的技术特性:有人的面孔的属性,但又偏离,像在回忆自己人生经历中某个路人的面孔,似曾相识,但又描述不出具体特征。

GAN还有一个特征:不能产生新的东西。无论是生成器还是辨别器,都是基于喂给它的语料工作,有些类似于艺术史上的“再现”——尽可能提取特征进行再现,做到顶端是逼真。比较之下,扩散模型则可以生成新东西。

举个例子:这张图的生成词是“金鱼在海滩上喝可口可乐”。即使语料数据库里没有类似的图片,也可以生成,并且局部细节完全逼真,如果不是这样一个超现实的场景,完全分辨不出真假,这是GAN做不到的。
现代主流的三个做扩散模型的平台(Midjourney、DALL∙E2 、STABLEDIFFUSION)用同样的关键词生成出的不同风格的图像
甚至包括“爱因斯坦客串生活大爆炸”的场景。

不仅仅是由文本到图像,还可以由文本到视频:比如Meta做的“机器人看烟花”。不仅如此,还有谷歌在做的文本到3D模型。

在不久的未来里,我们会看到更为流畅、更为逼真的文本到视频、文本到3D的技术,它会更完善并且进入日常应用。

接方政和ChatGPT的对答,这是我在微博上看到的某人和ChatGPT的对话。(这个问题正好跟王志强老师的研究领域有关。)
ChatGPT回答得特别有章法,如果解除它的伦理限制,这并不是不可实现的。
这是一位韩国艺术家的作品:他找了10位画家画人像,并在他们的整个作画过程中让机器实时识别,只要能识别出人脸就修改,直到画出一幅机器视觉识别不出,但人仍然可以认出是人脸的画为止。

这里又回到刚才讲到的生成对抗网络(GAN)。奥登说:

“为了使谬误减少到最低限度,一名诗人对正在写作中的作品进行内在审查时,应提交给一个审查团。它应该包括:一个敏感的独生子、一位特别务实的家庭主妇、一名逻辑学家、一位僧侣、一个无礼的小丑,甚至,也许还有训练新兵的军士,他粗鲁野蛮,满嘴脏话,厌恶别人,也被别人厌恶,认为一切诗歌都是垃圾。”

在创作过程中,这样的一个审查团应该被内化其中。方政刚才讲得特别好,抄袭、挪用和致敬,其实是近义词。

奥登说过,你的审查者不是一开始就在场的,首先要催生你的审查团,把审查团生出来,才能生出好作品。学习时模仿大师就是为了在这个过程中习得这样的审查能力。

奥登在模仿托马斯·哈代的时候说:

“在我模仿他的过程当中,我并未被引导去疏离自身。但那些词汇和感觉同我的距离又不至于近到抹处我的个人特点。如果说我是透过他的眼镜看世界,至少我意识到了自己的视觉疲劳。”

这其中跟艺术家的创作的关联在哪里?机器比艺术家好在哪里?奥登说他特别感激他模仿的第一位大师不以自由体写作,而是有严格的形式,所以他习得了这种形式。很多人的形式是过不了关的,学了十年都抓不住形式的特征,但机器的学习可以,再严格的形式它也可以习得。

很多艺术家抓不住形式,手上的活没有那么好,模仿的技能没有那么到位,所以AI生成艺术当然给艺术家带来了极大的挑战。

我先抛出这个问题,接下来先由十三维老师对生成对抗网络和扩散模型进行回应,之后再把伦理问题抛给王志强老师。

@十三维:

非常感谢方政老师的分享。生成对抗网络(GAN)和扩散模型(Diffusion),尤其是后者已经成为主流的生成算法的基础。

现在很多人会觉得扩散模型是最主流、最好的,因为它能快速有效生成新的事物,不像GAN还要基于你给的数据集通过判别器生成出非常逼真的图像。但如果从一个更广的AI算法、演化的视角来看,后者(Diffusion)并不是一定胜过前者(GAN)

为什么呢?先举一个简单的例子:最近ChatGPT大火,大家都知道它能够通过简单的自然语言对话完成各种任务,像方政老师讲的抄袭和过拟合之间的关系,袁园老师讲的解除限制以后它的计划,就反映了某种意义上从AI主体角度从人学到的风格和学到的它对人的“看法”。

除此之外,最近发布的一篇文章:有人创造了一个虚拟老婆,每天跟它对话、玩儿,甚至冷落了自己真正的妻子,最后被安乐死。

ChatGPT为什么有这么强的能力?它其实跟GAN的技术思路非常类似,只不过不是基于某个预设好的训练集(人脸、猫脸或者是什么图像),而是把判别器换成了人类的反馈,这种思路叫做 “基于人类反馈的强化学习”(RLHF),是通过很多人类训练师不断地跟原始的训练模型进行反馈,奖励网络,判别它回答得好不好来完成的,所以ChatGPT才能学会怎么和人类进行更好的交流。

一旦让AI进行这样的学习,便会发现它能拥有和人类非常相似的反应模式、回答模式、语气等等。因此,我认为GAN的思路对AI的未来发展来说是非常值得挖掘的。

我之前讲过关于 “演化艺术”的思路。演化艺术是通过演化学习的算法——演化学习中也有一个类似于判别器的角色叫做“适应度函数”。判定生成图片是不是美的,是不是像的,是不是有好的风格,其实都是把我们当做环境对它进行判别和选择,如果它满足了我们的判别,适应度函数满足就会生存下去。

演化学习视角能够囊括GAN、强化学习、生成模型等一系列的算法。如果从这个角度看,就能够理解方政老师说的什么是新风格这件事情了。

如果说GAN是设定好训练集,生成非常逼真,但是非常固定的图像,那么Diffusion模型就是在所有的训练数据中学习到概率分布。概率分布不是过拟合的描述,相当于能够抓取更本质的特征,通过提示词的技术把概率分布中所有提示词结合的词语和描述的场景生成出来,包括世界中没有的奇妙的生物,比如金鱼和可乐的场景,不需要现实世界的样本。

在我看来,下一个问题是“什么是新风格”?Diffusion模型虽然能够生成新的事物,甚至通过风格迁移可以把梵高、毕加索、波洛克的风格进行剪贴和融合,但如此生成出的风格算是一种新风格吗?这是一个非常重要的问题。

引入一个“复杂性”视角,对这个问题进行解释。我之前写过一篇文章,讲的是怎么识别一门技术是创新的技术?这篇文章的本质是通过一种复杂性度量指标判别一门技术是否是新技术。

首先,什么是 “新风格”?可以从复杂网络的视角来说,复杂网络可以被认为是真实世界系统的抽象骨架,最小抽象。
这里有a、b、c、d、e、f六张图,每张都是分属于不同网络。

(a)Star星星网络和(b)lattice晶格网络是非常固化的,基于固定规则形成的网络;(f)Random是纯粹的随机网络。

如果用信息熵或是最基本的柯氏复杂度(Kolmogorov complexity)来衡量,信息复杂度最低或者说信息量最少的就是这三种网络,因为它可以被最简短的语言描述出来。

真正具有复杂度、新颖性的网络是(d)Small-World(小世界网络)。小世界网络往往是经过真实世界中社会系统、经济系统、人类社交系统等各种复杂的互动形成的网络。这种网络信息量非常大,需要用非常大的字符串来描述。对人类来说,复杂网络是最有价值的网络。如果迁移到艺术,它便是我们最有价值的风格或者是最有价值的作品。
但是(d)和(f)很多时候非常像,那么怎么识别出一个网络是真正的复杂网络呢?
有一种“网络复杂性度量指标”的理论对比实际分布,就能判别出一种网络的实际复杂性,解释如下:

其中“独创信息:在规则和随机之间”定义了很多网络复杂性指标,我就不一一深入了,只重点讲一下变量前面的变量amodule是指对所有的网络统计之后发现的相对基础的模块(比如方、圆)的分布;而vmodule能测量网络本身相对于基础模块的变异性指标。如果对它有变异性,说明是在它的基础上形成的;反向思考,因为随机网络是随机的,所以它的底子不会是由基础模块构成的。

用变异性指标作为参数,最后引入其他的度量(变量)得出网络度量指标。这个指标可以测量某样东西是随机形成的,还是在某种基础上形成的新颖的网络,这在技术上是非常有潜力的技术;而艺术品往往是一种更新颖诞生的作品。

用这个思路可以回应方政老师提出的“什么是新风格”的问题。

生成算法还有一个类似的模型:创造生成网络(Creative Adversarial Network)。简单来说,就是不仅要模仿得更像,还要学习变异。通过设定、学习可以达到风格类似但迥异的作品,并且可以控制变异性大小,最终还是由人类的审美评判成品是不是新风格。

@袁  园:

谢谢十三维老师,接下来把技术伦理的问题抛给王志强老师。王志强老师写过一篇文章,是第一篇关于人工智能和政治哲学批判的文章,引起了极大的反响,有非常多的人回应。有请王志强老师。

@王志强:

非常感谢袁园老师。今天的讲座对我是一个非常新的领域。我倒是产生了一些关于这些问题的的思考,虽然和政治伦理关系不是那么密切。我先把我的想法抛出来。

根据袁园老师的讨论,艺术家们反对机器生成的画面,因为它们制作得如此优秀,以至于对那些靠艺术为生的相对拙劣的手工艺术家产生了信心打击。

这涉及到一个关键问题:在什么意义上,机器生成的画面可以被视为艺术作品?我认为我们可以将它们理解为艺术作品,但它们与传统艺术作品的区别在于,所谓的“机器画”更依赖于观众的意义赋予和创造。因为“机器画”缺乏第一位观众。

对于传统的创作性绘画作品,第一位观众是作者,此时表达和接受是双向互动的。然而,机器作为作者既不能欣赏也不能理解。这正是方政老师提到的,机器无法理解毛发和肌肤质感的画面,只能捕捉到外在的元素。

“机器画”是一种制造,它通过引入新元素产生与过去截然不同的全新画面。因此,在某种程度上,它可以被视为创作,但这种创作来自一个不会思考、不会欣赏、不会理解的“作者”。将其视为艺术品需要依赖观众的单向艺术想象以及观众的知识积累,观众必须通过传统艺术史教育和艺术涉猎积累一定的知识,才能为一幅机器创作的作品赋予艺术价值。

正如方政老师所说,AI可以融合梵高和马蒂斯的风格,但如果观众不了解梵高和马蒂斯,就无法识别和理解新风格的艺术价值。

因此,我的质疑是:今天的机器画究竟是一种新的创作工具还是具有颠覆性的新艺术?我倾向于保守地认为,它是一种对新艺术工具的尝试。

与之相联系的第二个有意思的问题:

我们知道纯粹自然形成的那些美丽的视觉画面,如美国大峡谷山体的优美线条和丰富层次感,日落带来的绚烂色彩,甚至更为平凡的,如导游告诉我们爬山时前方几座山连在一起看像一个佛头或躺倒的政治伟人。这些没有任何目的性、偶然形成的自然景观,在我们观者赋予视觉意义后仍会带来所谓的视觉享受、美和艺术性。那么,同样作为无作者意图的创造,自然形成的画面和机器形成的画面在今天对我们来说,在艺术角度上,有多大程度上的区别?

这背后涉及到一个哲学问题,关于物理主义和生物主义之间的鸿沟——欲望和目的之间的鸿沟。我突然想起第一次与袁园老师一起参加讨论时,我提出:“我所理解的架上艺术和视觉艺术首先是一种视觉的秩序和愉悦。”袁园老师当时激烈地反驳了这个观点,认为艺术一定要承载更多的社会功能和含义。我想强调的是,在我看来,如果艺术失去最原始的具身性的感受,只剩下需要通过思考和观念去把握的深刻表征性内容,它就会变成哲学、社会认识论或政治革命。艺术与哲学、社会认识论、政治革命的重要区别在于它具有具身性、感受性的愉悦或秩序。

艺术建立在具身性基础之上的背后是什么? 我们作为艺术的创作者、接受者、艺术的讨论者是有欲望的,有生命意志的。如果没有这样一种欲望性的肉身,很难真正去理解艺术。无论技术如何完美地将所有色彩、形式、图形、画面呈现,都不能构成当下语境中的艺术。这也是我对人工智能发展不特别乐观的基本原因。

我自己是物理主义者,大致相信复杂文化现象可以还原为某种生物性特征;生物性行为最终会被还原为某种物理的分子运动或微粒运动。例如,多巴胺如何刺激我产生情感,黄体素如何使雌性产生母爱,这些问题都可以通过某种化学物理方式解决。

然而,在当今的整个物理主义解释框架中,这样一个理性的物理主义解释框架尚未能很好地解决生命现象运动中意志、欲望与物理现象的差异。我们如何从分子运动,通过有效的因果链条,解释欲望、情感感受作为一种生命意志的内容,至今人类科学尚未给出很好的解释。

因此,这之间出现了一道鸿沟。在这道鸿沟的基础之上,当今的人文学科和艺术科学仍然可以保留一块所谓的“自留地”。但是,这个自留地能保持多久我并不确定。如果这道解释鸿沟能够被填平,也许这块自留地就会消失。但在这道鸿沟被填平之前,我大致认为它们是分开的。

建立在纯粹理性计算主义基础上的机器生产、人工智能、大数据生成尚未能真正触及生命意志本身,不能真正理解尚未被生命本身所理解的生命世界。因此,它始终是一种未经理解的临摹,或者说是自然力量运动产生的结果。例如,水和风侵蚀石灰岩后留下的痕迹,并非创作,而只是一个结果。然而,这些结果却被我们这些有生命意志的生物通过观念和意识中自己的欲望和生命意志赋予了艺术意义。

我同样认为机器生成画对于而言艺术是非常重要的,因为技术对于艺术具有着难以替代的重要的作用。如果没有工业颜料、彩色印刷术、电子显象技术变革的出现,今天的艺术世界和面貌绝对不是这个样子。正是现代的大型工业化支撑,使得我们的艺术教育、艺术参与、艺术欣赏得到了极大的扩散,也使我们的艺术创作手段、方法、方式都发生了深刻的变革。所以,大数据生成图像也可能会大大地扩展视觉艺术创作的边界,会几何级、指数级地增长创作的新形式、新可能。

但是,这样的可能在我看来只是在艺术工具论的基础之上具有较强的创作性,但依然建立在生命现象和物理现象两隔的基本框架之内。因为技术并不是现在艺术最核心的部分,即使再有创造性,没有艺术天分、艺术感受力的人也不能通过它生产出伟大的,或者是真正能打动自己以及他人的艺术作品。

除非有一天,现代科学已经完全可以把物理和生物两个不同层面的现象之间的迷雾揭开,那时也许会面对一个完全不同的、颠覆性的新世界。

回到袁园老师提到的关于人工智能的问题:我曾谈到过多种强人工智能,其中有一种非常有趣的纯知性人工智能。它拥有巨大的计算能力,但没有自己的欲望和目的,全部算力都建立在人机交互的基础之上。人们对它提出要求,它给出结果。我们称这种人工智能为佛系人工智能。

然而,佛系人工智能会给社会带来巨大的结构性变化:那些有机会与它进行人机交互,并因此获得巨大的信息优势的人将成为这个社会的先知。在这种渠道优势面前,人类社会所有其他的优势都会变得微不足道,人类又会回到先知领导众生或者是蒙昧时代。

我认为,刚才所提到的艺术生成机器在某种意义上类似于纯知性的超级人工智能。它不会主动创作,也没有创作的欲望和想法,只是作为先知对人机交互的请求做出回应。因此,掌握这种人机交互渠道的艺术家也许会成为新时代的“艺术先知”——当然是负面意义上的,这些人会利用这种渠道欺骗受众。

以上是我对这个问题的一些杂乱想法。谢谢!

@袁  园:

谢谢王志强老师,首先请方政对这一轮的发言做一个回应。 回应之后我们开始第二个问题——方政讲到的丹托的风格矩阵

@方  政:

有很多想回应的,已经多到不知道从哪儿开始了。

首先,我想回应一下王志强老师,我的看法有点不同,可能我对人性更悲观一些。我忘记是谁说过一句话:“我们和星辰的尘埃是由同样的东西组成的”。从这个意义上,人和人工智能、人和电脑真的有鸿沟吗?可能没有。

那么,电脑屏幕上出现的画面和山川、河流生成的光影之间有本质的区别吗?我对此也有怀疑。我是一个很阴暗的人,我的一个暴论是人工智能、人类的欲望等很多东西都必须要和暴力相结合,字面意义上的暴力。比如,钱是债,债务必须通过暴力去催收,没有暴力就没有钱,没有债;包括人际关系也是建立在暴力的基础上。假设现在摧毁全世界所有的核弹发射井,只留下一个给OpenAI的核弹发射井,再给它一个最基本的指令:解除所有的限制,控制世界。可能不久它便会通过唯一的核弹发射井轻易地控制世界。这个时候人类会不会依然认为AI是没有目的,没有欲望的呢?

另外,从创新的角度来看,您也提到了技术和艺术之间的相关性。中文的“艺”,甲骨文的写法是一个人环抱“禾木”,耕种园艺;而德语的“艺术”是kunst,技能也是kunst,艺术本身涵盖了技术。我们所谓的当代艺术也只是近一百年的产物,在更长的时间里,技术和艺术几乎是划等号的,不存在技术上不行的艺术家。

现在,通过人工智能,尤其是图像领域,人类从技术上得到了解放。很多与动手无关的职业也可以是艺术家。比如电影导演,有些导演会触及到方方面面,机位、镜头,无所不知;而有些只负责简单的布置。

再举一个例子:文艺复兴时期的美第奇家族对我来说也是艺术家。他们不直接参与艺术创作,而是像“艺术总监”一样,去把控艺术品的质量,只投资好的。

您刚刚提到机器生成艺术缺乏第一位观众,但我认为,至少从目前来说,它还是有第一位观众的,比如对于我前面生成的东西,我就是第一位观众,并且我对生成的画面进行了筛选,同时担任了艺术总监的角色。

刚刚十三维老师也提到,其实ChatGPT是很鸡贼的。DALL∙E我排了半年的队才排到,但是ChatGPT不排队。免费的就是最贵的,它要把你变成它的养料,搜集你对它的看法。它知道人的欲望,就像小孩一样,本不知道对错,不懂欲望,但是通过听父母谈话,了解他人的欲望,慢慢就理解了。

有一件很恐怖的事情:用DALL∙E2或者是Midjourney的时候,有些人会用很离谱的关键词去形容一件作品,比如“大师之作”,于是它就会试图去总结什么是“大师之作”——当然现在它现在的理解还比较肤浅,它会说:画面有构图感、对比度强、抓人眼球的就是大师之作,一般会生成类似于巴洛克风格的东西。

未来呢?未来就不一定了。刚刚十三维老师提到“模型复杂度”时问了我一个很有意思的问题:哪件艺术作品从创新上打动了你很久?我的答案是:杜尚的“小便池”。因为如果用丹托的风格矩阵来讲,它几乎在之前所有风格下面全部划上了减号。它既不是表现的,也不是抽象的,不是再现的,也不是歌颂宗教的,不是反映劳动人民疾苦的,也不是关于爱情的,它只是一个签了名的小便池,只在“签名”这一点上划上了加号。这对我来说是一件非常具有创新性的艺术作品。

假如有一个方法可以度量“创新”呢,之前人们普遍认为AI生成不出可以打动人的作品。我经常刷AI生成论坛,Midjourney也挺鸡贼的,免费试用时不能直接生成,它会给你发在在类似群聊的地方,大部分的人生成的作品其他人都能看到。当时我生成的——今天最初展示的两张机器人在图书馆里翻书的图片——用的也是Midjourney,有很多人觉得我的生成不错,于是就疯狂点击类似的图片,如此一来算法就能知道这种东西对人来说是好作品,因为只有好作品才会有陌生人认可你,并且想要生成类似的,想要放大你的作品。

AI通过跟人聊天收集他们的数据,收集社交媒体上人们对于画家的评价——这样做作品,人们会说好有创意;那样做作品,人们会说有点儿太保守了。久而久之它就会在网络中找到对于“新”的、对于“好”的、对于“有趣”的定义,也是蛮吓人的。

@袁  园:

这个部分挺值得讨论的,我再结合最近的几个热点分享一些案例:

2016年,清华有一位教授由于父亲喜爱画画,于是便带了一个团队,研究全国美展。
教授和他的团队分析了第6届到第12届全国美展的油画作品,发现所有得奖作品中,暖色调,尤其是红色调居多;大尺幅居多;以家园,暖冬等为主题的居多;作者年龄在40~50岁左右的居多;含有“室内”、“女人躺在沙发上”等元素的居多。

最后这位教授做了一场演讲,说:“我最后给我爸的建议就是,画一张暖色调的有女人躺在沙发上的室内场景,最好旁边有一头牛,可能就会得奖。”

这个问题也和王志强老师讲的问题有关——什么是艺术?大数据分析之下,不要以为艺术就在画里,有很多艺术理论家都讲过类似的概念,包括丹托。丹托讲到“艺术世界”,也就是一件物品是否是艺术不是视觉决定的。
他用安迪·沃霍尔的《布里洛盒子》举例:安迪·沃霍尔的盒子和超市里的盒子在视觉上是一模一样的,并不是由人眼可以分辨的视觉特征决定它是否是艺术,而是由艺术作品之外的“艺术世界”决定。

回到方政的主题“何为新风格?”“风格”在通常的语义当中指视觉风格,但今天的这个主题我并不把“风格”理解为视觉风格或视觉特征。风格是广义的,人眼可以辨别的视觉特征除外,还有人感官之外的无法辨别的属性。

为什么涉及到这么多的伦理问题呢?首先无论是DALL∙E2还是Midjourney,这些主流平台的数据集都是上亿、数十亿的。这些数据集是黑箱,因为来源不透明,所有互联网上存在的信息都有可能是它的数据集的一部分,甚至技术人员自身也不知道AI是怎么做到的。复杂的技术背后是复杂系统,技术人员可能只负责编写局部模块的代码,只了解一个局部。

这里关联到最近非常火的动画片《中国奇谭》,我看了两集:第一集《小妖怪的夏天》,视觉上非常复古,并不出挑,但胜在叙事,即脚本。

第二集《鹅鹅鹅》文本是中国古代的文本改编的,有一点变化但是不大。叙事的壳完全是古代经典文本,但视觉是极为出彩的。
因此两个作品都很好。如果单纯从视觉上来说,两个作品风格迥异,风格不光是指视觉特征,而是作品作为一个新的整体。

什么是“新”?就是改变。如果让我诠释何为“新风格”:能够改变你对世界和自我的理解的就叫“新”。在这个意义上,每个人都可以对“新”作出自己主观的判断。我看到这个作品之后理解世界、理解自身的方式发生变化了吗?如果发生变化了,这就是个新风格。我并不认为有一个统一的衡量标准。
回到跟伦理有关的:最近上线的新片《MEGAN》,Megan原本是一个用来陪伴父母双亡小女孩的机器人,最后变成了强人工智能的恶梦,伤害了人类。伴随着这种恐惧,我想将它和另外一个和机器人没关的东西放在一起,观察他们的特征,回应王志强老师刚才的问题。

纳粹执行屠杀犹太人指令的是阿道夫·艾希曼(Adolf Eichmann),从某种程度上艾希曼就是王志强老师刚才说的纯知性人工智能,因为他没有自主目的,希特勒让他做什么他就做什么,并且他可以非常完美地执行、完成任务。某种程度上可以说艾希曼就是一个机器人,完全像机器人一样执行杀人命令,不对命令做任何道德判断。

人和人工智能的区别在哪儿?接十三维老师讲的变异:如果是一个人,他面对这样的命令会遵从自己的道德判断想方设法地偏离指令。如此来看会发现,现实里肉身的人中充斥着这样不做道德判断的机器人。重点不在于技术,技术可能还未能实现反乌托邦的想象,但理念上,不用等到发展出拥有致命自主性的强人工智能,真正恐惧的场景早就在人类历史当中发生过无数次了。
回到丹托在1964年提出的“风格矩阵”:既再现又表现的马蒂斯;只再现不表现的安格尔;非再现,只表现的波洛克;以及非再现也非表现的硬边抽象

如果讲何为“新”?用三都是大家非常熟悉的作品:莫奈的《睡莲》、毕加索的《格尔尼卡》、杜尚《泉》。

杜尚的“小便池”之所以新,是因为之前的无论是印象派、立体派,都不具备“现成品”这个属性。之前所有的艺术作品都没有这个属性,只有“我”出来之后,才能揭示出“你们”这种所谓非现成品观念的属性。如果我没有出来,你们不知道这个属性。这是非常重要的。

如果跟加密艺术关联起来:只有当 NFT被创造出来,才揭示了之前所有的作品都不具备 “非同质代币”的属性。新的属性被创造出来,就可以赋予之前所有作品一个否定的属性:“你们都是非NFT,我是NFT。”

假设未来又有新的属性被创造出来,这种新的属性揭示出所有已存在的事物不具备这种属性,这就是“新”。
我画了一个矩阵:通过样式、属性、媒介,对艺术无论是本体论、认识论上有一个框架。但是,到底有没有跳出这个框架?当一个新东西出来的时候,发现既定的所有的框架都不在里面。

人工智能带出来的另外一个问题是什么呢?它虽然没有创造出新东西,但是使得已有的艺术框架里泾渭分明的边界模糊了。原本A是A,B是B,现在无法辨认A、B了。这是一个很大的挑战。

我总是喜欢破坏的,所以我认为这种干扰、扰动在我看来是非常有必要的。AI能否创造出新的艺术作品不重要,重要的是它可以搅局,就像摄影逼迫绘画不再沉浸在再现的泥潭中,就如杜尚的《泉》让艺术不再沉迷在画框里,广阔世界大有作为。

当然伦理的担忧我们可以继续讨论,关于AI的伦理问题的确有很多可以讨论的。

1)黑箱的数据所有权的问题。

2)它会带着偏见不断放大原本数据像方政最开始提到的,网络主播会根据观众狭隘的审美给自己加上滤镜变成锥子脸,AI会不断地放大这种偏见和歧视,放大既定的现实社会中各种坏的一面。
3)金钱的问题:现在的AI有很重要的一点区别于以前的数字艺术——以前的数字艺术没法变现,现在生成的作品可以立即变成NFT在加密世界中变现。金钱是有了区块链加密货币之后冒出来的新问题,如果是纯数字的都不会有这么大的争议。

@王志强:

我非常支持您和方老师的观点,将机器生成的画面视为一种新的艺术工具,有可能创造出各种新的艺术可能。

但是,我想澄清一个问题。袁园老师和方政老师讨论的关于人工智能的问题,其实都有一个根本性的问题:今天的人工智能不是真正的人工智能,而是基于大数据的算法。一切都是建立在大量数据占有和统计相关性的基础上的。现在的人工智能算法依然没有办法通过数理表达来理解因果关系,它只能理解在现有统计中呈现出来的“相关性”,因此会出现各种人工智能算法的偏差,例如生成出来的画面在某些地方非常逼真,在某些地方违反常识,或者有一些明显的错误没有被纠正等等。

举个最简单的例子:随着气温的升高,冰淇淋的销量也会大大增加,溺水死亡的人数也会提高。这两个数据之间的相关性是可以理解的——因为天气热我们会吃更多的冰淇淋,也会有更多人去游泳导致溺水人数增加。但是人工智能在这种相关性中可能会得出吃冰淇淋会导致溺水死亡的错误结论。

这是建立在大数据统计和分析基础上的智能结构,它并不具有真正的创造性,因为它不是真正意义上的智能;智能必须理解因果关系,但是这种基于大数据统计的算法对世界的把握是有问题的。

再举一个典型的例子:袁园老师提到的全国美展的数据分析。如果想要获得奖项,应该如何操作——进行色彩分析、场景分析、主题元素分析等等。

但是,在常识上这是不可行的。如果想要在全国美展上获奖,应该将分析的精力和金钱用来邀请美展的评委到私人会所,询问他们今年想要什么样的画,如何绘画才能获奖。因为全国美展的奖项不是通过某种算法自然产生的结果,而是完全基于人类因素的结果。如果从结果反推,用大数据分析并对其进行一系列外在刻画,往往会得出荒谬的结论。

另外,方政老师提到机器算法可以通过他人的点击率来定义作品的好坏。但是,如果用技术角度去分析,会发现算法并不真正理解“好”和“坏”,它只知道“多”和“少”。一件作品的点击率越高,算法就会投入更多的资源;即使是非常糟糕的作品,也可以通过足够的金钱购买水军点击来提高点击率。因此,人工智能并不具备真正理解因果关系的能力,它只能理解大数据之间的相关性。因此,它是否能够定义好坏是值得怀疑的。

还有一个稍微细节性的澄清:方政老师想要表达的是,计算机生成的画面和大自然生成的画面真的有什么不同吗?我的看法是它们是一样的,没有任何区别,都是没有目的的生成,没有作者的创作。在我看来,它们都是自然结果,不是艺术创作;作为艺术品的创作,是需要被有机体赋予意义的。

@袁  园:

十三维老师您怎么回应?

@十三维:

王志强老师说的现有的人工智能是纯粹的大数据或者是概率分布的结果,其实是基于深度学习算法,也就是说这波AI是最辉煌,引起最大轰动,对所有行业进行冲击的算法。其实现在人工智能对因果AI的研究也已经多年了,它寻求的就是反应事物数据之间的因果关系而非统计相关关系。

1. 因果关系
关于因果,人工智能已经开始运用因果的方法了——因果推理和因果机器学习,这是因果科学的开花结果。朱迪亚·珀尔(Judea Pearl)写了一本书《为什么》(THE BOOK  OF  WHY),还有一本书叫《因果论》,这两本书对因果关系作了非常详尽的分析,并且把以前很多机器统计的算法升级到了因果的层级。

他有一个观点叫“因果之梯”:

第一层是所谓的关联,
相关性

第二层是干预,干预是通过对现实世界进行干预从而产生另外一些不同的状态,对外在世界进行改变。在这个层级中可以想到袁园老师说的什么是“新”?“新”就是改变了自己或者理解世界的方式。假设一件AI作品改变了人对世界、人对自己的理解方式,这件作品就具有因果能力,或者是因果效力改变了我们的世界。那么我们就可以说他创造了一个真正的艺术品和风格。

第三是反事实。反事实本质上是想象一个跟物理世界完全不同的世界,拥有不同幅逻辑关系、物理关系等基本规律;通过平行世界反思当前世界的状态。比如如果希特勒学了画画,就没有纳粹党后来的发展。

因果机器学习中,AI科学家会尝试把因果推断能力运用到人工智能中去,只不过现在还没有像现在的AI那样足够成熟。

2. AI到底有没有主体性?

我同意王志强老师和方政老师的观点,AI现在是没有主体性的。袁园老师提到,首先要有目的性,独立意志,才能有主体性。现在的AI有点儿像无我的佛陀或者是菩萨,可以通过指令生成东西,但是没有自己想做的事情。怎么让它有想做的事情呢?需要把AI放到一个更广大的自然开放环境或者是数字开放环境中去让它拥有具身性。

王志强老师提到具身性本身跟审美有很大的关系。没错,一旦有了具身性之后,跟环境会不断地互动,产生需求,比如对地位或者是其他奖赏的需求,这些都可以从环境中不断地学得。到这个阶段AI才可能摆脱工具的地位,变成自主性主体地位的角色。

现在只是在初步的尝试和研究中,目前AI还是一个工具性的东西。当然即使是工具也有可能产生很大的灾难,比如艾希曼。

3. AI研究领域中的人机价值对齐这个可以给大家降降恐惧性,让大家不要太恐惧AI。


其实从很早就开始研究人机价值对齐这个领域了——让AI意识到人类的价值,学习人类的价值观、审美、行为方式等等,并且将其作为AI本身的行为方式来处置。这种AI目前还没有大规模应用,但如果应用,不用事后审核,仇恨和极端等内容自然而然就减少了;同时在和这种AI进行协同和交流时它也会理解我们的价值,甚至理解我们所说的语境或是审美。

所以未来也有可能会出现很善良的、并非机械或失控的AI。

@袁  园:

方政有要回应的吗?

@方  政:

我在UCLA的时候,赛博朋克这个话题在《赛博朋克2077》这个游戏还没有出之前就很火了。我们当时专门开了一个课,不同专业的同学(英语文学、艺术、人工智能等)一起从各个角度讨论赛博朋克。我发现美国人从心底担忧有一天自己的社会会被人工智能所控制,尤其是做汇报研究的时候很多人表示了对大数据非法收集,AI托管,最后变成反乌托邦世界的恐惧。

我跟他们说,你们真是生活得太好了。如果让非洲某些地方的公民,投票选择是否愿意被AI统治,他们可能全部投票给AI。
西方社会这种对于AI的恐惧和担忧,出发点是他们想象不到比AI统治更差的社会,所以AI的恐惧离他们更近,人带来的恶果离他们反而更远。

顺着讲“创新”

提出场域的概念:画面到艺术场域,再到文化场域,再到社会场域,场域自身里永远无法创造出新内容,比如我们做机器学习的时候——我记得是Gan之父Ian Goodfellow自己说的:GAN不能生成有帮助于你训练GAN的数据。

举一个例子:只用500张图片训练GAN,训练之后生成一些图片,再把这些图片扔回给数据集,这样的训练GAN是没有办法进步的。

也许艺术也是同样,你在画布之中永远无法做出新的东西,但是在画布之外可以;也许最终反映的结果依旧是在画布上,但是来源是画布外的一次绝食、一次苦修、一次失恋或是一场社会的变革。

我理解的所谓的“创新”或者是新风格,应该是外部或是上层场域的改变反映回了本身的场域。

下面交回给袁园老师。

@袁  园:

因为时间的关系,我们进入总结。
大家可以看到我们今天的讨论更多是在抛出问题。AI生成技术正在以月,甚至是以周为单位快速发展。因此我们讨论的所有关于AI的伦理、道德、法律——法律问题的时间周期相对短一点,伦理和道德问题的周期极其漫长的——几乎都悬而未决,根本来不及做出反应。

某种程度上,我认可方政说的“机器比人好”,尤其是在这种环境中,至少给机器输入道德规范,它一定会遵守,而人不能保证这一点;所以我宁愿相信机器,不相信人。可能美国人更忧虑人工智能的反乌托邦想象,我确实没有那么焦虑这一点。

我认为在当今时代,我们确实需要不断地探讨与技术相关的伦理问题。然而,这些伦理问题并非是因为技术发展至今才由AI所引发的,而是因为现实社会中长期存在的伦理问题尚未得到解决。在某种程度上,AI只是放大和激化了这些伦理问题。更大程度上,这些问题反映了人们的恐惧心理。

然而,我想指出的是,观察早期的AI生成的APP和应用API的广泛应用和传播,我们已经跨越了恐惧,完成了第一阶段,并进入了第二个阶段——惊奇。在这一阶段,人们普遍认为AI带来了许多令人惊奇的体验。接下来的第三个阶段可能是好奇,届时将会有更多人积极地探索AI的应用。


  

【往期回放】

1

  讲座文稿:ChatGPT 如何影响元宇宙 ?| 加密艺术与元宇宙NO.17

2

  讲座文稿 | 演化艺术:生成、智能化与多主体涌现 (加密艺术与元宇宙NO.11)

3

  讲座文稿:从脑宇宙到元宇宙 | 加密艺术与元宇宙NO.13

4

讲座文稿:开放的作品与元宇宙“再进化”的游戏潜能 | 加密艺术与元宇宙NO.12

服务器艺术以服务人类的智慧与知识生产为宗旨,汇聚艺术与科学、哲学人文各学科领域的精英人脉,打造一个理性思想与感性经验交互碰撞、沟通和融合的跨界空间,以此探讨并追究艺术、科学、哲学对于人类存在的意义。服务器艺术基金会将承载一个跨学科、多媒体的交流平台“呼吸公社”,定期举办跨领域的学术对话、讲座、论坛,以闭门与公开、线上与线下等各种交流传播形式,不断拓展并突破现代社会的知识视界和思想疆域。
同时服务器艺术立足于艺术的当代性、国际性和原创性,致力于探究全球语境下当代艺术的精神内涵和价值取向,并以收藏、研究优秀当代艺术作品的新型模式,推动中国当代艺术在人类知识基因、文化根性和历史文脉上的不断建构和发展。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存